心电图(ECG)数据通常包含多种病症,而ECG诊断是一个典型的多标签分类问题。在多标签分类方法中,RAKEL算法将标签集随机分解为若干个大小为k的子集,并建立LP分类器进行训练;然而由于没有充分考虑标签间的相关性,LP分类器中容易产生一些标签组合所对应样本稀少的情况,从而影响预测性能。为了充分考虑标签间的相关性,提出一种基于贝叶斯网络的RAKEL算法BN-RAKEL。首先利用贝叶斯网络找到标签间的相关性,确定候选标签子集;然后对每个标签采用基于信息增益的特征选择算法确定其最优特征空间,并针对每个候选标签子集利用最优特征空间相似性来检测其相关程度,以确定最终的具有强相关性的标签子集;最后在标签子集的最优特征空间上训练LP分类器。在实际的ECG数据集上,与多标签K近邻(ML-KNN)、RAKEL、CC和基于FP-Growth的RAKEL算法FI-RAKEL进行对比,结果显示所提算法在召回率和F-score上最少提高了3.6个百分点和2.3个百分点。实验结果表明,BN-RAKEL算法有较好的预测性能,能有效提升ECG诊断的准确性。
针对心肌梗死临床诊断过程中临床实用性和准确率不高的问题,提出一种基于12导联心电图(ECG)的心肌梗死的辅助诊断方法。首先,对12导联ECG信号进行去噪和数据增强处理;其次,分别对各导联ECG信号提取包含标准差、峰度系数、偏度系数的统计特征,以此反映信号的形态特征;同时,提取包含香农熵、样本熵、模糊熵、近似熵和排列熵的熵特征,以此表征ECG信号时间序列的时间与频谱复杂性、新模式产生的概率、规律性和不可预测性以及检测ECG信号的微小变化;然后,融合ECG信号的统计特征和熵特征;最后,基于随机森林算法在病人内和病人间两种模式下对算法进行分析和验证,并通过交叉验证防止过拟合。实验结果表明,病人内模式下算法准确率和F1值分别为99.98%和99.99%,病人间模式下算法准确率和F1值分别为94.56%和97.05%;与基于单导联ECG的诊断方法相比,采用12导联ECG诊断心肌梗死更符合医生临床诊断逻辑。
传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。
基于改进的RAKEL算法的心电诊断分类